Loading...
机构名称:
¥ 1.0

强化学习(RL)提供了一种通用方法,用于建模和培训AI代理,包括人类互动方案。在本文中,我们提出了Sharpie(hared Human-a i r einformention学习p latform for Iteractive e xperiments),以满足对一般框架的需求,以支持RL代理和人类的实验。它的模型设计由用于RL环境和算法库的多功能包装器组成,这是一个面向参与者的Web Interface,Lotogging Utilities,在流行云和参与者招聘平台上的部署。它使研究人员能够研究与人与RL药物之间的反应有关的各种研究问题,包括与交互式奖励规范和学习的研究,从人类的反馈,行动授权,偏好,用户模型,用户模型和人类团队中学习。该平台基于人类RL相互作用的通用界面,旨在标准化人类文本中RL的研究领域。

arxiv:2501.19245v2 [cs.ai] 2025年2月3日

arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第1页

arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第2页

arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第3页

arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第4页

arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第5页

相关文件推荐

2025 年
¥1.0
2025 年
¥2.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥7.0
2025 年
¥2.0
2025 年
¥2.0